비디오 캡셔닝 모델 성능 평가 안내서

1. 서론: 비디오 캡셔닝과 평가의 중요성

1.1 비디오 캡셔닝의 정의: 컴퓨터 비전과 자연어 처리의 융합

비디오 캡셔닝(Video Captioning)은 컴퓨터가 비디오에 포함된 시각적 정보를 분석하여, 그 내용을 설명하는 자연어 문장을 자동으로 생성하는 인공지능 기술이다.1 이는 동영상의 복잡한 시각 데이터를 인간이 쉽게 해석할 수 있는 텍스트 형식으로 변환하는 것을 목표로 한다.1 기술적으로 비디오 캡셔닝은 컴퓨터 비전(Computer Vision)과 자연어 처리(Natural Language Processing)라는 두 핵심 인공지능 분야의 융합 지점에 위치한다.1 컴퓨터 비전 기술을 통해 비디오의 각 프레임에서 객체, 행동, 장면 등 시각적 요소를 인식하고, 자연어 처리 기술을 통해 이 정보들을 조합하여 문법적으로 올바르고 문맥에 맞는 문장을 구성한다.2

1.2 기술의 목적 및 활용 분야

비디오 캡셔닝 기술의 가장 주된 목적은 디지털 콘텐츠의 접근성을 향상시키는 것이다. 청각 장애가 있거나 소리를 들을 수 없는 환경에 있는 사용자들이 비디오의 내용을 이해할 수 있도록 텍스트 정보를 제공한다.3 실제로 100개 이상의 경험적 연구에 따르면, 캡션은 청각 장애 여부와 관계없이 모든 시청자의 비디오 내용에 대한 이해도, 집중력, 그리고 기억력을 향상시키는 것으로 나타났다.4

접근성 향상 외에도 비디오 캡셔닝은 다양한 분야에서 활용된다. 첫째, 콘텐츠 검색 및 관리에 핵심적인 역할을 한다. 생성된 텍스트 캡션은 방대한 비디오 데이터를 인덱싱하고 검색하는 데 사용될 수 있다.2 예를 들어, 유튜브(YouTube)와 같은 대규모 비디오 플랫폼은 자동 생성된 캡션을 활용하여 사용자가 텍스트 기반 검색어를 통해 원하는 비디오를 더 쉽고 정확하게 찾을 수 있도록 지원한다.2 둘째, 교육 및 학습 분야에서 강의나 튜토리얼 영상의 스크립트를 자동으로 생성하여 학습자의 학습 효율과 내용 복습을 돕는다.2 특히 비디오를 비모국어로 시청하는 학습자에게는 어휘 학습과 발음 향상에 긍정적인 영향을 미친다.4

1.3 성능 평가의 역할: 모델의 발전 방향을 제시하는 나침반

비디오 캡셔닝 모델의 성능을 정확하고 신뢰성 있게 평가하는 것은 해당 기술 발전에 필수적이다.2 평가는 모델이 생성한 캡션의 정확성, 비디오 내용과의 관련성, 문장의 일관성 및 문법적 올바름 등을 정량적으로 측정하는 과정이다.2 이를 통해 연구자들은 개발한 모델의 장단점을 객관적으로 파악하고, 알고리즘의 어느 부분을 개선해야 할지 명확한 방향을 설정할 수 있다.

객관적인 평가 지표는 서로 다른 모델의 성능을 공정한 기준 위에서 비교할 수 있게 하여, 학계와 산업계 전체의 연구 발전을 촉진하는 벤치마크 역할을 수행한다.1 그러나 자동 생성된 캡션의 품질이 항상 완벽하지는 않다. 예를 들어, 유튜브의 자동 캡션 서비스는 때때로 부정확한 내용을 생성하여 사용자에게 상당한 혼란을 야기할 수 있다.3 이러한 문제는 정확한 성능 평가의 중요성을 더욱 부각시킨다.

결론적으로, 성능 평가는 단순히 모델에 점수를 매기는 행위를 넘어, ’더 나은 캡션이란 무엇인가’라는 근본적인 질문에 대한 답을 구체화하며 연구의 방향성 자체를 이끌어가는 핵심적인 나침반 역할을 한다. 기술의 성숙도를 측정하는 도구이자, 동시에 모델이 인간의 인식과 얼마나 유사하게 비디오를 이해하는지를 가늠하는 척도로 기능하는 것이다.

2. 전통적 자동 평가 지표 심층 분석

이 장에서는 비디오 캡셔닝 모델이 생성한 문장(후보 캡션)과 사람이 작성한 정답 문장(참조 캡션) 간의 텍스트적 유사도를 측정하는 전통적인 자동 평가 지표들을 상세히 분석한다. 이러한 지표들은 대부분 기계 번역이나 텍스트 요약 분야에서 차용되었으며, n-gram(연속된 단어 뭉치) 일치도를 기반으로 작동한다.

2.1 BLEU (Bilingual Evaluation Understudy): 정밀도 기반 n-gram 평가

2.1.1 개념

BLEU는 본래 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 문장이 참조 문장과 얼마나 많은 n-gram(연속된 n개의 단어 시퀀스)을 공유하는지 측정한다.8 평가의 초점은 정밀도(Precision)에 맞춰져 있어, 모델이 생성한 캡션에 포함된 단어 뭉치들이 실제로 참조 캡션에도 존재하는지를 확인하는 방식으로 작동한다.10

2.1.2 계산 방식

BLEU 점수는 세 가지 주요 요소로 구성된다. 첫째, **수정된 n-gram 정밀도(Modified n-gram Precision)**는 후보 문장에 특정 n-gram이 과도하게 반복되어 점수가 부풀려지는 것을 방지한다. 예를 들어, 후보 문장에 ’the’가 7번 등장하더라도 참조 문장에 ’the’가 2번만 있다면, 일치 횟수는 2번으로 제한된다.9 둘째, **간결성 페널티(Brevity Penalty)**는 생성된 문장이 참조 문장보다 현저히 짧을 경우 페널티를 부여한다. 이는 정밀도는 높지만 내용이 부족한 짧은 문장이 높은 점수를 받는 것을 막기 위함이다.9 마지막으로, 최종 BLEU 점수는 일반적으로 1-gram부터 4-gram까지의 수정된 정밀도 점수들의 기하평균에 간결성 페널티를 곱하여 계산된다.2 점수는 0과 1 사이의 값을 가지며, 1에 가까울수록 두 문장이 유사함을 의미한다.9

2.1.3 수식

BLEU의 공식은 다음과 같이 표현된다.

$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$
여기서 BP는 간결성 페널티, pn은 수정된 n-gram 정밀도, wn은 각 n-gram에 대한 가중치(일반적으로 1/N)이다.12 간결성 페널티

BP는 후보 문장의 길이 c와 유효 참조 문장의 길이 r을 사용하여 다음과 같이 정의된다.

$\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{(1-r/c)} & \text{if } c \le r \end{cases}$

2.1.4 장단점 및 해석

BLEU의 가장 큰 장점은 계산이 빠르고 개념이 직관적이라는 점이다.9 또한, 개별 문장 단위보다는 대규모 코퍼스 전체를 평가할 때 인간의 판단과 높은 상관관계를 보이는 것으로 알려져 있다.8

하지만 명확한 단점도 존재한다. 가장 큰 문제는 의미론적 유사성을 전혀 고려하지 못한다는 것이다. “guard“와 “watchman“처럼 의미가 같은 동의어나 “rain“과 “raining“처럼 형태만 다른 단어를 완전히 다른 것으로 취급하여 점수를 낮게 평가한다.9 또한 문법적 구조나 문장의 전체적인 유창성을 평가하지 못하며, “not“과 같이 문장의 의미를 완전히 바꾸는 중요한 단어가 누락되어도 이를 제대로 감지하지 못하는 한계가 있다.12

Google AutoML에서는 BLEU 점수를 다음과 같이 해석할 것을 제안한다.12

BLEU 점수	해석
< 10	거의 쓸모 없음
10 - 29	요점 파악은 가능하나 문법 오류가 심각함
30 - 50	이해 가능하고 좋은 품질의 번역
> 50	매우 높은 품질의 유창한 번역

2.2 ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 재현율 기반 n-gram 평가

2.2.1 개념

ROUGE는 주로 텍스트 요약 성능을 평가하기 위해 개발된 지표로, BLEU와는 반대로 재현율(Recall)에 중점을 둔다.10 즉, 사람이 작성한 참조 문장에 포함된 핵심 단어나 구가 모델이 생성한 문장에 얼마나 많이 포함되었는지를 측정한다.11

2.2.2 주요 변형

ROUGE는 측정하는 n-gram의 종류에 따라 여러 변형이 존재한다.

ROUGE-N: n-gram의 재현율을 계산한다. ROUGE-1은 개별 단어(unigram)의 일치율을, ROUGE-2는 연속된 두 단어 쌍(bigram)의 일치율을 측정하여 각각 내용어의 포괄성과 짧은 구문의 유지 여부를 평가한다.11
ROUGE-L: 최장 공통 부분 서열(Longest Common Subsequence, LCS)을 기반으로 한다. 단어의 순서는 유지하되 반드시 연속적일 필요는 없는 가장 긴 일치 시퀀스를 찾아, 문장 수준의 구조적 유사성을 평가하는 데 강점이 있다.11

2.2.3 수식

ROUGE-N의 재현율은 다음과 같이 계산된다.

$\text{ROUGE-N}_{\text{recall}} = \frac{\sum_{S \in \{\text{RefSummaries}\}} \sum_{\text{gram}_n \in S} \text{Count}_{\text{match}}(\text{gram}_n)}{\sum_{S \in \{\text{RefSummaries}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)}$
여기서 $\text{Count}_{\text{match}}(\text{gram}_n)$ 은 참조 요약과 후보 요약 모두에 나타나는 n-gram의 수를 의미한다.11 일반적으로 ROUGE 점수는 정밀도, 재현율과 함께 이 둘의 조화 평균인 F1-score로 보고된다.13

2.2.4 장단점

ROUGE는 인간의 평가와 긍정적인 상관관계를 보이며, 계산 비용이 낮고 특정 언어에 종속되지 않는 장점이 있다.11 재현율에 초점을 맞추기 때문에, 모델이 참조 캡션의 핵심 정보를 얼마나 누락 없이 잘 포착했는지 평가하는 데 특히 유용하다.13 그러나 BLEU와 마찬가지로 단어의 의미적 유사성은 고려하지 못하고 표면적인 구문 일치만을 측정한다는 근본적인 한계를 공유한다.11

2.3 METEOR (Metric for Evaluation of Translation with Explicit ORdering): 동의어와 어간을 고려한 정렬 기반 평가

2.3.1 개념

METEOR는 BLEU의 엄격한 n-gram 일치 방식의 한계를 보완하기 위해 개발된 지표이다. 정밀도와 재현율을 모두 고려하며, 정확한 단어 일치뿐만 아니라 형태소 분석(stemming)을 통해 같은 어원을 가진 단어(예: ‘run’, ‘running’)를 일치시키고, WordNet과 같은 시소러스를 이용해 동의어(예: ‘car’, ‘automobile’)까지 일치 항목으로 인정한다.2

2.3.2 계산 방식

METEOR의 계산 과정은 여러 단계로 이루어진다.

후보 문장과 참조 문장 간의 단어들을 정렬(alignment)한다. 이때, 정확한 일치, 어간 일치, 동의어 일치 순으로 높은 우선순위를 부여하여 최적의 정렬을 찾는다.15
이 정렬을 기반으로 정밀도(P)와 재현율(R)을 계산한다.
정밀도보다 재현율에 9배 더 높은 가중치를 부여하는 조화 평균(F-mean)을 계산하여, 누락된 정보에 더 큰 페널티를 준다.15
정렬된 단어들이 두 문장에서 얼마나 연속적으로 나타나는지를 측정하는 ‘덩어리(chunk)’ 개념을 도입하여, 단어 순서가 많이 뒤섞일수록 더 큰 페널티를 부과한다.15
최종 점수는 계산된 F-mean 값에 페널티를 적용하여 산출한다.

2.3.3 수식

최종 METEOR 점수는 다음과 같이 계산된다.

$\text{Score} = F_{mean} \cdot (1 - \text{Penalty})$
여기서 $F_{mean}$ 은 $\frac{10 \cdot P \cdot R}{R + 9P}$ 로 계산되며, Penalty는 0.5⋅(matched_unigramschunks)3로 계산된다.15

2.3.4 장단점

METEOR는 동의어나 어간이 같은 단어를 일치 항목으로 인정함으로써 BLEU나 ROUGE보다 유연하며, 인간의 언어적 판단과 더 높은 상관관계를 보인다.14 하지만 계산 과정이 상대적으로 복잡하고, WordNet과 같은 외부 언어 자원에 의존한다는 단점이 있다.

2.4 CIDEr (Consensus-based Image Description Evaluation): TF-IDF를 활용한 합의 기반 평가

2.4.1 개념

CIDEr는 이미지 캡셔닝 평가를 위해 특별히 설계된 지표로, ’합의(Consensus)’라는 개념에 기반한다.17 좋은 캡션이란 여러 명의 사람이 공통적으로 사용하는 표현, 즉 합의된 내용을 담고 있어야 한다는 철학에서 출발했다.

2.4.2 계산 방식

CIDEr는 n-gram에 TF-IDF(Term Frequency-Inverse Document Frequency) 가중치를 적용하여 핵심적인 표현을 식별한다.

모든 후보 및 참조 캡션의 단어들을 어간(stem) 형태로 변환한다.17
1-gram부터 4-gram까지의 모든 n-gram에 대해 TF-IDF 가중치를 계산한다.19 여기서 TF(단어 빈도)는 특정 캡션 내에서 해당 n-gram이 얼마나 자주 등장하는지를, IDF(역문서 빈도)는 전체 데이터셋에서 해당 n-gram이 얼마나 희귀한지를 나타낸다. 이를 통해 “a”, “the“와 같이 자주 등장하지만 정보 가치가 낮은 단어들의 가중치는 낮추고, 특정 장면을 묘사하는 데 핵심적인, 희귀한 단어들의 가중치는 높인다.17
계산된 TF-IDF 가중치를 벡터로 변환한 후, 후보 캡션 벡터와 각 참조 캡션 벡터 간의 코사인 유사도를 계산하고, 이 값들을 평균하여 최종 점수를 산출한다.17

2.4.3 수식

특정 길이 n의 n-gram에 대한 CIDEr $_n$ 점수는 다음과 같다.

$\text{CIDEr}_n(c_i, S_i) = \frac{1}{m} \sum_{j} \frac{\mathbf{g}^n(c_i) \cdot \mathbf{g}^n(s_{ij})}{\|\mathbf{g}^n(c_i)\| \|\mathbf{g}^n(s_{ij})\|}$
여기서 gn은 n-gram에 대한 TF-IDF 벡터를, ci는 후보 캡션, Si는 참조 캡션 집합을 나타낸다.17 최종 CIDEr 점수는

n=1부터 4까지의 CIDEr $_n$ 점수들을 평균하여 얻는다.

2.4.4 장단점

CIDEr는 정보 가치가 높은 단어에 가중치를 부여함으로써 단순한 단어 일치를 넘어 의미적 중요도를 평가하려는 시도라는 점에서 BLEU보다 발전된 지표이다.18 그 결과 인간의 평가와 높은 상관관계를 보이는 것으로 알려져 있다. 하지만 여전히 n-gram 기반이므로 문장 구조나 복잡한 의미 관계를 파악하는 데는 한계가 있으며, 전체 데이터셋의 통계 정보(IDF)에 의존하므로 작은 규모의 데이터셋에서는 성능이 불안정할 수 있다.

2.5 SPICE (Semantic Propositional Image Caption Evaluation): Scene Graph를 통한 의미론적 내용 평가

2.5.1 개념

SPICE는 기존 n-gram 기반 지표들의 근본적인 한계, 즉 의미를 이해하지 못하는 문제를 해결하기 위해 제안되었다.22 이 지표는 문장의 표면적인 단어 나열이 아닌, 그 안에 담긴 의미론적 내용 자체를 평가한다. 이를 위해 캡션 문장을 객체(objects), 속성(attributes), 관계(relations)로 구성된 의미 구조인 Scene Graph로 변환하여 비교한다.22

2.5.2 계산 방식

SPICE의 평가 과정은 다음과 같다.

후보 캡션과 모든 참조 캡션을 의미론적 파서(semantic parser)를 사용해 각각 Scene Graph로 변환한다.22
생성된 Scene Graph에서 (객체), (객체, 속성), (주어, 관계, 목적어)와 같은 논리적 튜플(tuple)들을 추출한다.24
후보 캡션에서 추출된 튜플 집합과 참조 캡션들에서 추출된 튜플 집합을 비교하여 정밀도(Precision)와 재현율(Recall)을 계산한다.
이 둘의 조화 평균인 F1-score를 최종 SPICE 점수로 사용한다.22

2.5.3 수식

SPICE 점수는 F1-score로 정의된다.

$\text{SPICE}(c, S) = F_1(c, S) = 2 \cdot \frac{P(c, S) \cdot R(c, S)}{P(c, S) + R(c, S)}$
여기서 P와 R은 Scene Graph에서 추출된 튜플 집합에 대한 정밀도와 재현율을 의미한다.24

2.5.4 장단점

SPICE의 가장 큰 장점은 의미론적 정확성을 직접 평가한다는 점이다. 예를 들어, “A shiny metal pot filled with some diced veggies“와 “The pan on the stove has chopped vegetables in it“처럼 사용된 단어는 전혀 다르지만 의미가 동일한 두 문장에 대해 높은 유사도 점수를 부여할 수 있다.22 이 덕분에 기존의 어떤 지표보다도 인간의 판단과 높은 상관관계를 보인다.22 또한 모델이 색상이나 수량과 같은 특정 속성을 얼마나 잘 이해하는지 세부적으로 분석하는 것도 가능하다.22

반면, 문장을 Scene Graph로 변환하는 의미론적 파싱 과정이 매우 복잡하고 계산 비용이 높다는 단점이 있다. 또한, 평가 결과가 전적으로 파서의 성능에 의존하기 때문에 파싱 오류가 평가의 정확성에 직접적인 영향을 미친다.

2.6 표 1: 자동 평가 지표 핵심 비교

각 평가 지표는 고유한 철학과 장단점을 가지고 있으며, 연구자는 자신의 연구 목적과 데이터 특성에 가장 적합한 지표를 선택해야 한다. 아래 표는 각 지표의 핵심적인 특징을 한눈에 비교하여 의사결정을 돕는다.

지표	핵심 개념	평가 초점	장점	단점
BLEU	n-gram 정밀도	생성된 캡션의 단어/구가 참조 캡션에 얼마나 정확하게 나타나는가	계산이 빠르고, 대규모 코퍼스에서 인간 평가와 상관관계가 있음	의미/동의어 무시, 문법 구조 평가 미흡
ROUGE	n-gram 재현율	참조 캡션의 단어/구가 생성된 캡션에 얼마나 포함되었는가	내용 포괄성 평가에 유리, 요약 평가에 강점	의미/동의어 무시, 문장 구조 평가 미흡
METEOR	단어 정렬	정밀도와 재현율의 조화, 동의어/어간 일치 고려	BLEU/ROUGE보다 유연하며 인간 평가와 상관관계 높음	외부 언어 자원 의존, 계산 복잡성
CIDEr	합의 기반 TF-IDF	정보 가치가 높은 n-gram의 유사도, 인간의 합의 강조	희귀하고 중요한 단어에 가중치 부여, 인간 평가와 상관관계 높음	데이터셋 통계에 의존, 문장 구조 파악 한계
SPICE	Scene Graph	객체, 속성, 관계 등 의미론적 명제의 일치도	의미론적 정확성 평가에 탁월, 인간 평가와 상관관계 매우 높음	계산 비용 높음, 의미 분석기 성능에 의존

평가 지표의 발전사는 ’표면적 일치’에서 ’의미론적 이해’로 나아가는 명확한 진화 과정을 보여준다. 이는 AI가 인간의 언어를 이해하는 방식에 대한 연구 커뮤니티의 관점 변화를 반영하는 것이기도 하다. 어떤 단일 지표도 완벽하지 않으므로, 대부분의 최신 연구에서는 BLEU, METEOR, CIDEr, SPICE 등 여러 지표를 함께 보고하여 모델 성능을 다각적으로 평가하는 접근 방식을 채택하고 있다.6

3. 주요 벤치마크 데이터셋 상세 분석

비디오 캡셔닝 모델의 성능은 표준화된 벤치마크 데이터셋 위에서 평가되어야 공정하고 재현 가능한 결과를 얻을 수 있다. 이 장에서는 비디오 캡셔닝 연구에 널리 사용되는 주요 데이터셋의 규모, 도메인, 특징 등을 상세히 분석한다.

3.1 MSVD (Microsoft Research Video Description Corpus)

MSVD는 2013년에 공개된 초기 비디오 캡셔닝 데이터셋 중 하나이다.28 약 1,970개의 짧은 YouTube 비디오 클립과 약 8만 개에서 12만 개 사이의 문장으로 구성되어 있다.28 각 비디오 클립에는 평균적으로 약 40개의 영어 캡션이 달려 있다.28 비디오 클립의 길이는 대부분 10초 미만으로, 하나의 명확한 행동이나 이벤트를 담고 있는 경우가 많다.29 이 데이터셋은 비교적 규모가 작고 내용이 단순하여, 초기 연구나 기초적인 모델의 성능을 검증하는 데 주로 사용된다.28 또한, 비디오 질의응답(MSVD-QA)이나 인과-시간적 서사(MSVD-CTN) 생성을 위한 파생 데이터셋으로 확장되어 다양한 연구에 활용되기도 한다.31

3.2 MSR-VTT (Microsoft Research Video to Text)

2016년에 공개된 MSR-VTT는 10,000개의 웹 비디오 클립과 200,000개의 문장-클립 쌍으로 구성된 대규모 데이터셋이다.33 총 비디오 길이는 41.2시간에 달하며, 각 비디오는 Amazon Mechanical Turk(AMT) 작업자들이 작성한 약 20개의 영어 문장으로 주석 처리되었다.33 이 데이터셋의 가장 큰 특징은 영화, 음악, 스포츠, 요리 등 20개의 다양한 카테고리를 포함하는 오픈 도메인이라는 점이다.33 MSVD에 비해 훨씬 다양하고 복잡한 시나리오를 담고 있어, 모델의 일반화 성능을 평가하는 데 핵심적인 벤치마크로 자리 잡았다.28 표준 데이터 분할은 학습용 6,513개, 검증용 497개, 테스트용 2,990개의 비디오 클립으로 구성된다.28 다만, 원본 데이터에는 중복된 주석이나 특수 문자, 오탈자 등의 노이즈가 포함되어 있어 데이터 정제 과정이 필요할 수 있다는 연구 결과가 있다.28

3.3 VATEX (Video and Text)

VATEX는 2019년에 제안된 대규모 다국어 비디오 캡셔닝 데이터셋이다.28 41,250개 이상의 비디오와 총 825,000개의 캡션으로 구성되어 있으며, 각 비디오는 10개의 영어 캡션과 10개의 중국어 캡션을 동시에 보유하고 있다.37 600개의 세분화된 인간 활동을 포괄하는 등 매우 광범위한 비디오 콘텐츠를 제공하며, 데이터셋 내의 모든 캡션이 고유하여 어휘적 다양성이 매우 높다는 특징이 있다.37 이러한 다국어 및 다양성 특성 덕분에, VATEX는 전통적인 비디오 캡셔닝뿐만 아니라 다국어 캡셔닝 모델 개발이나 비디오 정보를 활용한 기계 번역과 같은 새로운 연구 분야를 개척하는 데 중요한 역할을 하고 있다.37

3.4 ActivityNet Captions

2017년에 공개된 ActivityNet Captions는 **밀집 비디오 캡셔닝(Dense Video Captioning)**이라는 특정 과업을 위해 구축된 독특한 데이터셋이다.40 이 데이터셋은 약 20,000개의 편집되지 않은(untrimmed) 긴 YouTube 비디오(총 849시간)와 100,000개의 문장으로 구성된다.40 밀집 캡셔닝은 비디오 전체를 하나의 문장으로 요약하는 대신, 비디오 내에서 발생하는 여러 이벤트를 시간적으로 탐지(localization)하고 각각의 이벤트를 개별 문장으로 설명하는 것을 목표로 한다.40 따라서 이 데이터셋의 각 비디오는 평균 3.65개의 시간 정보(시작 시간, 종료 시간)가 명시된 이벤트와 그에 대한 설명 문장을 포함한다.40 이벤트들은 서로 겹치거나 다양한 길이를 가질 수 있어, 비디오의 시간적 구조를 이해하고 여러 사건을 동시에 처리하는 모델의 능력을 평가하는 데 적합하다.40 평가는 생성된 캡션의 언어적 품질(BLEU, METEOR 등)과 이벤트 탐지의 시간적 정확도(temporal Intersection over Union, tIoU)를 함께 측정한다.40

3.5 표 2: 주요 벤치마크 데이터셋 비교

각 데이터셋은 고유한 특성을 가지며, 이는 비디오 캡셔닝이라는 연구 분야가 어떻게 진화해왔는지를 보여준다. 아래 표는 각 데이터셋의 핵심 사양을 비교하여 연구 목적에 맞는 데이터셋 선택을 돕는다.

데이터셋	발표 연도	비디오 수	캡션/비디오	총 캡션 수	도메인	핵심 특징 및 주 용도
MSVD	2013	~1.9K	~40	~80K	일반 (단일 행동)	짧은 비디오 클립, 초기 연구, 기초 모델 검증
MSR-VTT	2016	10K	~20	200K	오픈 도메인 (20개 카테고리)	대규모, 다양한 주제, 모델 일반화 성능 평가
VATEX	2019	~41K	20 (영어 10, 중국어 10)	825K	오픈 도메인 (600개 활동)	대규모, 다국어, 어휘 다양성 높음, 다국어 캡셔닝
ActivityNet Captions	2017	20K	~3.65 (이벤트 단위)	100K	오픈 도메인 (일상 활동)	긴 비디오, 시간적 이벤트 탐지 및 설명 (Dense Captioning)

이러한 데이터셋의 발전은 비디오 캡셔닝 과업 자체의 정의를 확장시켜 왔다. MSVD의 ’하나의 짧은 비디오에 대한 하나의 설명’에서 시작하여, MSR-VTT와 VATEX를 통해 ’다양한 주제의 비디오에 대한 다각적, 다국어 설명’으로, 그리고 ActivityNet Captions에 이르러서는 ’긴 비디오 내 다중 이벤트에 대한 시간적, 내용적 설명’으로 문제가 심화되고 세분화되었다. 이처럼 복잡한 데이터셋의 등장은 어텐션 메커니즘이나 트랜스포머와 같이 더 정교한 모델 아키텍처의 개발을 촉진했으며, 역으로 발전된 모델은 더 현실적이고 도전적인 데이터셋의 구축을 요구하는 선순환 구조를 형성해왔다.

4. 표준 평가 절차 및 도구

비디오 캡셔닝 모델의 성능을 일관되고 재현 가능하게 평가하기 위해서는 표준화된 절차와 널리 인정받는 도구를 사용하는 것이 중요하다. 이 장에서는 일반적인 평가 프로세스와 핵심 평가 도구인 pycocoevalcap에 대해 설명한다.

4.1 단계별 평가 프로세스

비디오 캡셔닝 모델의 평가는 일반적으로 다음과 같은 4단계로 진행된다.

데이터셋 준비: 먼저, 평가에 사용할 표준 벤치마크 데이터셋(예: MSR-VTT, MSVD)의 테스트 분할을 준비한다. 이때, 사람이 작성한 정답 캡션, 즉 참조 캡션(ground truth)을 평가 도구가 요구하는 특정 형식(일반적으로 JSON)으로 구성해야 한다.45 이 파일은 보통 비디오 ID를 키(key)로 하고, 해당 비디오에 대한 모든 참조 문장들의 리스트를 값(value)으로 가지는 딕셔너리 구조를 가진다.
후보 캡션 생성: 평가하고자 하는 비디오 캡셔닝 모델을 사용하여 테스트 데이터셋의 각 비디오에 대한 캡션을 생성한다. 이렇게 모델이 생성한 캡션을 후보 캡션(candidate caption)이라고 한다. 후보 캡션 역시 참조 캡션과 마찬가지로, 비디오 ID와 생성된 문장을 쌍으로 묶어 별도의 파일로 저장한다.45
평가 스크립트 실행: 준비된 참조 캡션 파일과 후보 캡션 파일을 평가 스크립트의 입력으로 제공하여 실행한다. 널리 사용되는 pycocoevalcap과 같은 도구는 이 두 파일을 입력받아 내부적으로 BLEU, METEOR, CIDEr, SPICE 등 다양한 평가 지표의 점수를 자동으로 계산한다.45
결과 분석 및 보고: 스크립트 실행이 완료되면 각 평가 지표에 대한 최종 점수가 출력된다. 연구자는 이 점수들을 기존의 최신 기술(State-of-the-art, SOTA) 모델들이 동일한 데이터셋에서 기록한 점수와 비교한다. 이를 통해 개발한 모델의 성능을 객관적으로 평가하고, 그 결과를 논문이나 보고서에 기술한다.48

4.2 평가 도구 활용: `pycocoevalcap`

4.2.1 소개

pycocoevalcap은 본래 MS COCO 이미지 캡셔닝 챌린지를 위해 개발된 공식 평가 라이브러리이지만, 그 신뢰성과 편의성 덕분에 비디오 캡셔닝 분야에서도 사실상의 표준(de facto standard) 도구로 널리 사용되고 있다.47 이 도구는 앞서 설명한 BLEU, METEOR, ROUGE-L, CIDEr, SPICE 등 주요 자동 평가 지표를 모두 포함하고 있어, 한 번의 실행으로 다각적인 평가가 가능하다.50

4.2.2 설치 및 사용법

pycocoevalcap은 Python 3 환경에서 pip을 통해 쉽게 설치할 수 있다.49 다만, METEOR와 SPICE 지표를 계산하기 위해서는 각각 Java 1.8.0과 Stanford CoreNLP 라이브러리가 추가로 필요하다.49

사용법은 간단하다. 참조 캡션과 후보 캡션을 COCO 데이터셋 형식에 맞는 JSON 파일로 준비한 뒤, 라이브러리에서 제공하는 COCO 객체와 COCOEvalCap 객체를 초기화하고 evaluate 메소드를 호출하면 모든 지표가 한 번에 계산된다. 구체적인 사용 예제 코드는 공식 GitHub 저장소에서 쉽게 찾아볼 수 있다.47 다수의 비디오 캡셔닝 연구 프로젝트들이 GitHub에서 이 라이브러리를 직접 활용하여 평가 부분을 구현하고 있으며, 이는 pycocoevalcap의 표준적인 위상을 잘 보여준다.45

이러한 표준화된 평가 절차와 공개 도구의 사용은 연구의 재현성(reproducibility)을 보장하는 핵심 요소이다. 모든 연구자가 동일한 데이터 분할과 동일한 평가 코드를 사용할 때, 비로소 모델 간의 공정하고 의미 있는 성능 비교가 가능해진다.

흥미로운 점은, 평가 지표가 단순히 모델의 최종 성능을 측정하는 수동적인 역할에만 머무르지 않는다는 것이다. 특히 강화학습(Reinforcement Learning)을 도입한 최신 캡셔닝 모델들은 훈련 과정에서 CIDEr와 같이 미분 불가능한 평가 지표를 직접적인 보상(reward) 신호로 활용한다. 예를 들어, SCST(Self-Critical Sequence Training) 기법은 모델이 생성한 캡션의 CIDEr 점수를 계산하고, 이 점수가 기준치보다 높을 경우 해당 생성을 긍정적으로 강화하는 방식으로 모델을 미세 조정(fine-tuning)한다.21 이는 평가 지표가 모델의 ‘최종 심판’ 역할을 넘어, 더 나은 문장을 생성하도록 이끄는 ’훈련 교사’의 역할까지 수행할 수 있음을 보여준다. 즉, 평가와 훈련은 분리된 과정이 아니라 모델 성능 향상을 위해 긴밀하게 상호작용하는 과정이라 할 수 있다.

5. 자동 평가의 한계와 인간 평가의 역할

자동 평가 지표는 신속하고 비용 효율적이며 일관된 결과를 제공한다는 점에서 매우 유용하지만, 인간 언어의 복잡성과 미묘함을 완벽하게 포착하지 못하는 근본적인 한계를 지닌다. 따라서 자동 평가의 결과를 보완하고 모델의 성능을 가장 정확하게 측정하기 위해 인간 평가가 필수적인 역할을 한다.

5.1 자동 평가 지표의 내재적 한계

자동 평가 지표는 주로 참조 캡션과의 표면적인 문자열 일치도에 의존하기 때문에 다음과 같은 한계를 가진다.

의미론적 모호성: 하나의 비디오에 대해 의미적으로 타당한 설명은 여러 가지가 존재할 수 있다.5 예를 들어, “한 남자가 자전거를 탄다“와 “한 사람이 이륜차를 운전한다“는 의미상 매우 유사하지만, n-gram 기반 지표들은 사용된 단어가 다르다는 이유로 후자에 낮은 점수를 부여할 수 있다. 이처럼 창의적이거나 다양한 표현을 부당하게 평가절하하는 경향이 있다.7
문맥 및 중요도 파악 실패: 자동 지표는 비디오의 전체적인 문맥이나 어떤 요소가 서술의 핵심인지를 판단하지 못한다.5 이로 인해 두 가지 문제가 발생한다. 첫째, 모델이 비디오에 존재하지 않는 내용을 꾸며내는 ‘환각(hallucination)’ 현상이 발생해도, 우연히 참조 캡션과 일부 단어가 겹치면 부당하게 높은 점수를 받을 수 있다.16 둘째, 참조 캡션에 언급되지 않은 사소한 디테일(예: 인물의 옷 색깔)을 정확히 묘사하더라도 점수에는 반영되지 않는다.5
인간 평가와의 낮은 상관관계: 자동 지표 점수가 인간이 느끼는 캡션의 품질과 항상 일치하지는 않는다.5 특히 코퍼스 전체가 아닌 개별 문장 단위로 평가할 때 이러한 불일치는 더욱 두드러진다.12
견고성 부족: 의미에 영향을 주지 않는 합법적인 어순 변경이나 동의어 사용에 대해서도 점수가 민감하게 변동하는 등 견고성이 부족하다.5

5.2 인간 평가(Human Evaluation) 방법론

인간 평가는 자동 평가의 한계를 극복하고 생성된 캡션의 품질을 가장 신뢰성 있게 측정하는 ’골드 스탠다드(gold standard)’로 간주된다.5

5.2.1 평가 기준

인간 평가는 주로 다음과 같은 다차원적인 기준을 통해 이루어진다.

정확성/적절성(Accuracy/Relevance): 생성된 캡션이 비디오의 내용(객체, 행동, 장면 등)을 얼마나 사실에 근거하여 정확하게 묘사하는가.5
유창성(Fluency): 캡션이 문법적으로 올바르고, 자연스러우며, 사람이 작성한 것처럼 읽히는가.5
상세함/포괄성(Detail/Coverage): 캡션이 비디오의 주요 정보를 누락 없이, 충분히 상세하게 담고 있는가.5

5.2.2 평가 방식

평가 방식은 크게 두 가지로 나뉜다.

절대 평가(Absolute Scoring): 평가자가 각 캡션을 보고 위에서 언급된 기준들에 따라 독립적으로 점수를 매기는 방식이다. “매우 나쁨“에서 “매우 좋음“까지 5점 또는 7점 척도로 구성된 리커트 척도(Likert scale)가 널리 사용된다.5
상대 평가(Pairwise Comparison): 두 개 이상의 모델이 생성한 캡션을 동시에 제시하고, 어떤 캡션이 비디오를 더 잘 설명하는지 평가자가 선택하게 하는 방식이다.57 이 방법은 평가자 개인의 점수 기준 차이에서 오는 편향을 줄여 더 일관된 순위 정보를 얻는 데 유리하다.

인간 평가는 비용과 시간이 많이 소요되는 작업이므로 16, 현실적인 연구 개발 과정에서는 자동 평가와 인간 평가를 상호 보완적으로 활용하는 하이브리드 접근 방식이 일반적이다. 즉, 개발 과정에서는 자동 지표를 통해 신속하게 모델을 개선하고, 최종 성능 보고나 중요한 모델 비교 시에는 인간 평가를 통해 깊이 있는 검증을 수행하는 것이다.

이러한 인간 평가는 단순히 최종 검증 수단으로만 기능하는 것이 아니라, 더 나은 자동 평가 지표를 개발하는 원동력이 된다. 자동 평가 지표 연구의 핵심 목표 중 하나는 인간의 판단과의 상관관계를 높이는 것이다.5 SPICE나 이후에 등장할 BERTScore, CLIP-Score와 같은 새로운 지표들은 모두 기존 지표들보다 인간의 평가와 더 높은 상관관계를 보인다는 점을 자신들의 핵심적인 기여로 내세운다.22 이처럼 인간 평가는 기존 자동 평가의 한계를 드러내는 동시에, 더 정교한 자동 평가 지표를 개발하기 위한 ’정답지’이자 ‘목표점’ 역할을 수행하며 평가 방법론 자체의 발전을 이끌고 있다.

6. 최신 평가 패러다임: 학습 기반 및 참조 불필요 지표

전통적인 n-gram 기반 평가 지표의 한계를 극복하기 위해, 최근 연구들은 대규모 사전 훈련된 언어 모델(LLM)과 비전-언어 모델(VLM)의 능력을 활용하는 새로운 평가 패러다임으로 나아가고 있다. 이들은 크게 ’학습 기반 지표’와 ’참조 불필요 지표’로 나뉜다.

6.1 BERTScore: 문맥적 임베딩을 활용한 의미 유사도 측정

6.1.1 개념

BERTScore는 BERT와 같은 사전 훈련된 언어 모델을 사용하여, 후보 캡션과 참조 캡션의 각 단어를 문맥을 풍부하게 반영하는 고차원 벡터, 즉 문맥적 임베딩(contextual embedding)으로 변환한다.61 그 후, 단어 대 단어의 정확한 일치가 아닌, 임베딩 벡터 간의 코사인 유사도를 계산하여 두 문장의 의미적 유사성을 측정한다.62

6.1.2 계산 방식

BERTScore는 정밀도, 재현율, F1 점수를 계산한다.

정밀도(Precision): 후보 문장의 각 단어(토큰)에 대해, 참조 문장에서 의미적으로 가장 유사한 단어를 찾아 그 코사인 유사도 점수를 기록한다. 이 점수들의 평균이 최종 정밀도가 된다.62
재현율(Recall): 반대로 참조 문장의 각 단어에 대해, 후보 문장에서 가장 유사한 단어를 찾아 그 유사도 점수들의 평균을 계산한다.62
F1 점수: 계산된 정밀도와 재현율의 조화 평균을 최종 BERTScore로 사용한다.62

6.1.3 수식

BERTScore의 재현율(RBERT), 정밀도(PBERT), F1 점수(FBERT)는 다음과 같이 정의된다. 여기서 x와 $\hat{x}$ 는 각각 참조 문장과 후보 문장의 토큰 임베딩 벡터 시퀀스를 나타낸다.

$R_{\text{BERT}} = \frac{1}{\vert x \vert} \sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}} \mathbf{x}_i^T \hat{\mathbf{x}}_j$

$P_{\text{BERT}} = \frac{1}{\vert \hat{x} \vert} \sum_{\hat{x}_j \in \hat{x}} \max_{x_i \in x} \mathbf{x}_i^T \hat{\mathbf{x}}_j$

$F_{\text{BERT}} = 2 \frac{P_{\text{BERT}} \cdot R_{\text{BERT}}}{P_{\text{BERT}} + R_{\text{BERT}}}$

6.1.4 장단점

BERTScore의 가장 큰 장점은 문맥을 이해한다는 것이다. 동의어나 다른 구문 구조를 사용하더라도 의미가 같다면 높은 점수를 부여하여, BLEU나 ROUGE보다 인간의 판단과 더 잘 부합하는 평가를 제공한다.61 하지만 여전히 참조 캡션에 의존하는 텍스트 대 텍스트 비교 방식이며, 비디오의 실제 시각적 내용은 전혀 고려하지 않는다는 한계가 있다.67

6.2 CLIP-Score: 참조 캡션 없이 비디오-텍스트 정합성을 직접 평가

6.2.1 개념

CLIP-Score는 수억 개의 이미지-텍스트 쌍으로 사전 훈련된 거대 비전-언어 모델인 CLIP(Contrastive Language-Image Pre-training)을 활용한 참조 불필요(reference-free) 평가 지표이다.52 이 지표는 평가의 패러다임을 근본적으로 전환한다. 즉, 생성된 캡션이 ’참조 캡션’과 얼마나 유사한지를 보는 대신, ’주어진 비디오’와 의미적으로 얼마나 잘 부합하는지를 직접 측정한다.68

6.2.2 계산 방식

계산 방식은 매우 직관적이다.

CLIP의 이미지 인코더(Image Encoder)를 사용하여 비디오(또는 비디오의 대표 프레임)로부터 시각적 특징을 담은 임베딩 벡터를 추출한다.
CLIP의 텍스트 인코더(Text Encoder)를 사용하여 후보 캡션으로부터 텍스트 임베딩 벡터를 추출한다.
두 임베딩 벡터가 동일한 의미 공간(embedding space)에 존재하므로, 이들 간의 코사인 유사도를 계산하여 최종 점수로 사용한다. 이 점수는 보통 0에서 100 사이로 조정된다.69

6.2.3 수식

CLIP-Score는 이미지(비디오) I와 캡션 C의 임베딩 벡터 EI와 EC 간의 코사인 유사도로 정의된다.

$\text{CLIPScore}(I, C) = \max(100 \cdot \cos(\mathbf{E}_I, \mathbf{E}_C), 0)$

6.2.4 장단점

CLIP-Score의 가장 혁신적인 장점은 참조 캡션이 필요 없다는 점이다. 이는 막대한 비용과 시간이 드는 참조 캡션 제작 과정에서 연구자들을 해방시켜, 평가의 비용을 획기적으로 절감하고 연구 개발 속도를 가속화한다.16 또한, 비디오와 텍스트 간의 실제 관련성을 직접 평가하므로, 시각적 근거 없이 내용을 지어내는 ‘환각’ 현상을 탐지하는 데 기존 지표들보다 훨씬 효과적일 수 있다.16 여러 연구에서 CLIP-Score는 인간의 판단과 매우 높은 상관관계를 보이는 것으로 입증되었다.60 다만, 사전 훈련된 CLIP 모델 자체의 편향이나 지식의 한계가 평가 결과에 영향을 미칠 수 있으며, 뉴스 기사 캡션처럼 깊은 배경지식이나 문맥적 추론이 필요한 경우에는 성능이 상대적으로 약할 수 있다.68

6.3 새로운 지표들의 등장과 미래 방향성

BERTScore와 CLIP-Score의 성공은 학습 기반 평가 지표의 가능성을 열었다. EMScore는 CLIP-Score를 비디오 영역으로 확장하여, 전체 비디오와 캡션 간의 거시적 유사도뿐만 아니라, 개별 프레임과 단어 간의 미시적 유사도까지 함께 고려하는 방식을 제안했다.16

PAC-S는 생성 모델을 활용해 실제 데이터와 유사한 가상의 긍정적 예시(positive examples)를 추가로 만들어 학습함으로써, CLIP-Score보다도 높은 성능을 달성했다.60

향후 비디오 캡셔닝 평가는 다음과 같은 방향으로 발전할 것으로 전망된다.

다중 모드 참조 불필요 지표: 시각 정보뿐만 아니라 비디오에 포함된 오디오 정보까지 종합적으로 활용하여 캡션의 품질을 평가하는 방향으로 나아갈 것이다.7
설명 가능성(Explainability): 단순히 최종 점수만 제공하는 것을 넘어, 왜 해당 점수가 나왔는지, 예를 들어 캡션의 어떤 부분이 비디오의 어떤 내용과 불일치하는지를 설명해주는 평가 지표에 대한 요구가 증가할 것이다.7
특정 목적용 평가: 생성된 캡션이 Text-to-Video(T2V) 모델 훈련에 얼마나 유용한지와 같이, 특정 다운스트림 태스크의 목적에 부합하는지를 평가하는 새로운 벤치마크(예: VidCapBench)가 등장하고 있다.73

이러한 최신 패러다임은 평가의 기준을 ’인간의 표현’에서 ‘실세계의 콘텐츠’ 자체로 옮기는 중요한 철학적 전환을 의미하며, AI 연구의 장벽을 낮추고 혁신을 가속화하는 데 기여할 것이다.

7. 결론: 올바른 평가 지표 선택을 위한 제언

비디오 캡셔닝 모델의 성능을 올바르게 평가하는 것은 기술 발전을 위해 매우 중요하며, 어떤 단일 지표도 모든 측면을 완벽하게 평가할 수는 없다. 따라서 연구의 목적과 단계에 따라 적절한 평가 지표를 전략적으로 선택하고 조합하여 사용하는 지혜가 필요하다.

7.1 평가 지표 요약 및 연구 목적에 따른 선택 가이드라인

빠른 반복과 일반적 성능 확인: 모델 개발 초기 단계나 하이퍼파라미터 튜닝과 같이 신속한 피드백이 필요한 경우, 계산이 빠른 BLEU-4와 ROUGE-L이 유용하다. 이 지표들은 모델의 기본적인 문장 생성 능력과 참조 내용의 포함 여부를 빠르게 점검하는 데 적합하다.
인간의 판단과 높은 상관관계가 필요할 때: 최종 모델의 성능을 보고하거나 다른 최신 모델들과의 성능을 공정하게 비교해야 할 경우, 인간의 판단과 높은 상관관계를 보이는 것으로 검증된 지표들을 함께 사용하는 것이 표준적인 접근 방식이다. 일반적으로 METEOR, CIDEr, SPICE를 함께 보고하여 다각적인 분석을 제공한다.
의미론적 정확성이 중요할 때: 모델이 비디오 내의 객체, 그들의 속성, 그리고 객체 간의 관계를 얼마나 정확하게 이해하고 문장으로 표현하는지를 평가하는 것이 핵심이라면, 의미론적 구조를 직접 비교하는 SPICE가 가장 적합한 선택이다.
참조 캡션이 없거나, 비디오-텍스트 정합성이 핵심일 때: 대규모 웹 비디오와 같이 정제된 참조 캡션이 없는 데이터를 다루거나, 모델이 시각적 근거 없이 내용을 생성하는 ‘환각’ 현상을 집중적으로 분석하고 싶을 때는 CLIP-Score와 같은 참조 불필요 지표가 매우 강력한 대안이 될 수 있다.

7.2 향후 비디오 캡셔닝 평가 연구의 도전 과제 및 전망

비디오 캡셔닝 평가 분야는 여전히 해결해야 할 여러 도전 과제를 안고 있으며, 이는 곧 미래 연구의 방향성을 제시한다.

시간적 일관성 및 인과관계 평가: 현재 대부분의 지표는 개별 문장 단위로 평가가 이루어진다. 이로 인해 여러 문장으로 구성된 단락 수준의 캡션에서 나타나는 사건의 시간적 순서, 문장 간의 논리적 일관성, 그리고 인과관계를 제대로 평가하지 못한다.1 비디오의 서사 구조를 이해하고 평가할 수 있는 새로운 지표 개발이 시급하다.
주관성과 다양성 평가: 동일한 비디오에 대해서도 사람마다 중요하게 생각하는 부분이 다르며, 따라서 좋은 캡션은 여러 가지 형태로 존재할 수 있다. 하지만 현재의 지표들은 다수의 참조 캡션이 공유하는 ‘평균적인’ 표현을 정답으로 간주하는 경향이 있다. 모델이 생성하는 캡션의 창의성이나 표현의 다양성을 긍정적으로 평가할 수 있는 방법론에 대한 연구가 필요하다.
편향과 공정성 평가: 평가에 사용되는 벤치마크 데이터셋과 CLIP, BERT와 같은 사전 훈련된 모델에는 특정 문화나 인구 집단에 대한 사회적 편향이 내재되어 있을 수 있다. 이러한 편향이 평가 결과에 미치는 영향을 분석하고, 모델의 공정성(fairness)을 측정할 수 있는 새로운 평가 지표의 도입이 중요한 과제로 남아있다.

궁극적으로 비디오 캡셔닝 평가는 인간의 복합적인 판단을 완벽하게 모사하는 단 하나의 자동 지표를 찾는 것보다, 다양한 특성을 가진 자동 지표들과 체계적인 인간 평가를 유기적으로 조합하여 모델의 성능을 입체적이고 심층적으로 이해하는 방향으로 나아갈 것이다. 따라서 미래의 연구자에게는 단순히 높은 점수를 기록하는 모델을 개발하는 능력뿐만 아니라, 연구 목적에 맞는 최적의 평가 ’포트폴리오’를 구성하고 그 결과를 비판적으로 해석하는 능력이 더욱 중요해질 것이다.

8. 참고 자료

Analysis of Research Trends in Deep Learning … - Korea Science, https://koreascience.kr/article/JAKO202407845716286.page
Evaluating and Fine-Tuning Multimodal Video Captioning Models - A Case Study - Labellerr, https://www.labellerr.com/blog/evaluating-and-fine-tuning-multimodal-video-captioning-models/
The Importance of Video Captioning — Office of Accessibility Resources and Services - University of Central Arkansas, https://uca.edu/oars/faculty-resources/captioning-services/
Video Captions Benefit Everyone - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC5214590/
BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment - ACL Anthology, https://aclanthology.org/2022.lrec-1.168.pdf
VCRScore: Image captioning metric based on V&L Transformers, CLIP, and precision-recall, https://arxiv.org/html/2501.09155v1
Evaluation metrics for video captioning: A survey - DOAJ, https://doaj.org/article/4ffcd8532ed9404ab7b2d44fd38ba6ac
What is a BLEU score? - Azure AI Custom Translator - Microsoft Learn, https://learn.microsoft.com/en-us/azure/ai-services/translator/custom-translator/concepts/bleu-score
Demystifying the BLEU Metric: A Comprehensive Guide to Machine Translation Evaluation, https://www.traceloop.com/blog/demystifying-the-bleu-metric
LLM Evaluation: BLEU - ROUGE - SuperAnnotate Docs, https://doc.superannotate.com/docs/guide-bleu-rouge
Two minutes NLP — Learn the ROUGE metric by examples | by …, https://medium.com/nlplanet/two-minutes-nlp-learn-the-rouge-metric-by-examples-f179cc285499
Evaluate models | Cloud Translation | Google Cloud, https://cloud.google.com/translate/docs/advanced/automl-evaluate
Scoring and Comparing Models with ROUGE | CodeSignal Learn, https://codesignal.com/learn/courses/benchmarking-llms-on-text-generation/lessons/scoring-and-comparing-models-with-rouge-1
What is a METEOR Score? - BytePlus, https://www.byteplus.com/en/what-is/meteor-score
METEOR: An Automatic Metric for MT Evaluation with Improved …, https://aclanthology.org/W05-0909.pdf
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/papers/Shi_EMScore_Evaluating_Video_Captioning_via_Coarse-Grained_and_Fine-Grained_Embedding_Matching_CVPR_2022_paper.pdf
CIDEr score - Machine Learning Notes, https://www.shedge.com/metrics/cid-er-score/
What is a CIDEr Score? - BytePlus, https://www.byteplus.com/en/what-is/cider-score
Consensus-based Image Description Evaluation (CIDEr) - OECD.AI, https://oecd.ai/en/catalogue/metrics/consensus-based-image-description-evaluation-cider
arXiv:2211.08983v1 [cs.SD] 14 Nov 2022, https://arxiv.org/pdf/2211.08983
Fluent and Accurate Image Captioning with a Self-Trained Reward Model - arXiv, https://arxiv.org/html/2408.16827v1
[1607.08822] SPICE: Semantic Propositional Image Caption Evaluation - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/1607.08822
SPICE: Semantic Propositional Image Caption Evaluation - Peter Anderson, https://panderson.me/images/SPICE.pdf
SPICE: Semantic Propositional Image Caption Evaluation, https://arxiv.org/pdf/1607.08822
SPICE: Semantic Propositional Image Caption Evaluation - ResearchGate, https://www.researchgate.net/publication/305735918_SPICE_Semantic_Propositional_Image_Caption_Evaluation
SPICE Metric || Image Captioning || Deep Learning - YouTube, https://www.youtube.com/watch?v=As441oo3yk8
arXiv:2405.01028v2 [cs.CV] 13 Jun 2024, https://arxiv.org/pdf/2405.01028
The MSR-Video to Text Dataset with Clean Annotations - arXiv, https://arxiv.org/html/2102.06448v4
MSVD Dataset Corpus - Kaggle, https://www.kaggle.com/datasets/vtrnanh/msvd-dataset-corpus
Collecting Multilingual Parallel Video Descriptions Using …, https://www.cs.utexas.edu/users/ml/clamp/videoDescription/
LAVIS/dataset_card/msvd_qa.md at main · salesforce/LAVIS - GitHub, https://github.com/salesforce/LAVIS/blob/main/dataset_card/msvd_qa.md
narrativebridge/MSVD-CTN · Datasets at Hugging Face, https://huggingface.co/datasets/narrativebridge/MSVD-CTN
MSRVTT - Kaggle, https://www.kaggle.com/datasets/vishnutheepb/msrvtt
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language - Microsoft, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/06/cvpr16.msr-vtt.tmei_-1.pdf
MSR-VTT: A Large Video Description Dataset for Bridging Video …, https://www.microsoft.com/en-us/research/publication/msr-vtt-a-large-video-description-dataset-for-bridging-video-and-language/
Machine Learning Datasets - Papers With Code, https://paperswithcode.com/datasets?task=video-captioning&lang=english
VATEX, https://eric-xw.github.io/vatex-website/about.html
VATEX 3 - Kaggle, https://www.kaggle.com/datasets/khaledatef1/vatex011011
VATEX 2 - Kaggle, https://www.kaggle.com/datasets/khaledatef1/vatex01101/versions/1
ActivityNet Captions Dataset - Emergent Mind, https://www.emergentmind.com/topics/activitynet-captions-dataset
ActivityNet Captions - Dataset - LDM, https://service.tib.eu/ldmservice/dataset/activitynet-captions
Dense-Captioning Events in Videos - CVF Open Access, https://openaccess.thecvf.com/content_ICCV_2017/papers/Krishna_Dense-Captioning_Events_in_ICCV_2017_paper.pdf
Dense-Captioning Events in Videos - Stanford Computer Science, https://cs.stanford.edu/people/ranjaykrishna/densevid/
Dense-Captioning Events in Videos - ResearchGate, https://www.researchgate.net/publication/316643209_Dense-Captioning_Events_in_Videos
Multimodal Video Captioning project for the Natural Language Processing course at Tsinghua University, spring 2021 - GitHub, https://github.com/hmartelb/multimodal-video-captioning
aimagelab/pacscore: [CVPR 2023 & IJCV 2025] Positive … - GitHub, https://github.com/aimagelab/pacscore
Video to Text — OpenNMT-py documentation, https://opennmt.net/OpenNMT-py/legacy/vid2text.html
Neleac/SpaceTimeGPT: video description generation … - GitHub, https://github.com/Neleac/SpaceTimeGPT
pycocoevalcap - PyDigger, https://pydigger.com/pypi/pycocoevalcap
salaniz/pycocoevalcap: Python 3 support for the MS COCO caption evaluation tools - GitHub, https://github.com/salaniz/pycocoevalcap
How to use or install pycocoevalcap? - Stack Overflow, https://stackoverflow.com/questions/62439483/how-to-use-or-install-pycocoevalcap
jmhessel/clipscore: CLIPScore EMNLP code - GitHub, https://github.com/jmhessel/clipscore
[1710.10586] Evaluation of Automatic Video Captioning Using Direct Assessment - arXiv, https://arxiv.org/abs/1710.10586
Human evaluation of automatically generated text: Current trends and best practice guidelines - ResearchGate, https://www.researchgate.net/publication/347355146_Human_evaluation_of_automatically_generated_text_Current_trends_and_best_practice_guidelines
Put Your Video Caption Know-how to the Test [Cheat sheet included] - Convince & Convert, https://www.convinceandconvert.com/content-marketing/put-your-video-caption-know-how-to-the-test/
The use of rating and Likert scales in Natural Language Generation human evaluation tasks: A review and some recommendations - ResearchGate, https://www.researchgate.net/publication/338053074_The_use_of_rating_and_Likert_scales_in_Natural_Language_Generation_human_evaluation_tasks_A_review_and_some_recommendations
Video Captioning with Listwise Supervision, https://ojs.aaai.org/index.php/AAAI/article/view/11239/11098
Pairwise Comparisons Are All You Need - arXiv, https://arxiv.org/html/2403.09746v2
LLM evaluation: Metrics, frameworks, and best practices | genai-research - Wandb, https://wandb.ai/onlineinference/genai-research/reports/LLM-evaluation-Metrics-frameworks-and-best-practices–VmlldzoxMTMxNjQ4NA
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Sarto_Positive-Augmented_Contrastive_Learning_for_Image_and_Video_Captioning_Evaluation_CVPR_2023_paper.pdf
[1904.09675] BERTScore: Evaluating Text Generation with BERT - arXiv, https://arxiv.org/abs/1904.09675
BERT Score Explained - Ruman - Medium, https://rumn.medium.com/bert-score-explained-8f384d37bb06
What is BERTScore - Bidirectional Encoder Representations from Transformers Score?, https://tutorialsdojo.com/what-is-bertscore-bidirectional-encoder-representations-from-transformers-score/
BERTScore – A Powerful NLP Evaluation Metric Explained & How To Tutorial In Python, https://spotintelligence.com/2024/08/20/bertscore/
Tiiiger/bert_score: BERT score for text generation - GitHub, https://github.com/Tiiiger/bert_score
BERTScore Explained in 5 minutes. Evaluating Text Generation with BERT… | by Abonia Sojasingarayar | Medium, https://medium.com/@abonia/bertscore-explained-in-5-minutes-0b98553bfb71
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives - arXiv, https://arxiv.org/html/2503.14604v1
CLIPScore: A Reference-free Evaluation Metric for Image …, https://aclanthology.org/2021.emnlp-main.595/
Evaluating AI-generated images with CLIP Score - Exploring AI, https://unimatrixz.com/blog/latent-space-clip-score/
CLIP Score — PyTorch-Metrics 1.8.2 documentation - Lightning AI, https://lightning.ai/docs/torchmetrics/stable/multimodal/clip_score.html
Evaluation metrics for video captioning: A survey | Request PDF - ResearchGate, https://www.researchgate.net/publication/373590932_Evaluation_metrics_for_video_captioning_A_survey
[2303.12112] Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - arXiv, https://arxiv.org/abs/2303.12112
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation - arXiv, https://arxiv.org/html/2502.12782v1